년 12월 AI 및 로봇 연구 동향
1. 서론: 2018년 AI 연구의 변곡점
2018년은 인공지능, 특히 딥러닝 기술이 다양한 산업 분야에서 성숙기에 접어들며 그 가능성을 입증하는 동시에, 기존 방법론들이 가진 근본적인 한계를 극복하고 보다 견고한 이론적 기반을 다지려는 학문적 노력이 정점에 달했던 시기였다. 이 시기 학계의 주요 화두는 모델의 계산 효율성 증대, 대규모 학습 과정의 안정성 확보, 알고리즘의 성능에 대한 이론적 보장, 그리고 복잡하고 예측 불가능한 현실 세계 문제에 대한 강건성 확보 문제로 수렴하고 있었다.1 본 보고서는 이러한 학문적 배경 속에서 2018년 12월에 발표된 핵심적인 연구 성과들을 심층적으로 분석함으로써, 당시 인공지능 및 로봇 공학 분야가 맞이한 기술적 변곡점의 의미와 그 파급 효과를 조명하는 것을 목표로 한다.
분석의 중심에는 당대 최고의 권위를 자랑하는 두 학회, 신경정보처리시스템학회(NeurIPS)와 로봇학습학회(CoRL)가 있다. NeurIPS는 명실상부한 세계 최고 수준의 머신러닝 학회로서, 그해 가장 중요한 이론적 발견과 방법론적 돌파구를 제시하는 지성의 경연장이었다.3 특히 2018년에는 기존의 약칭이었던 ’NIPS’가 성차별적이라는 비판에 따라 ’NeurIPS’로 공식 명칭을 변경하는 논의가 활발히 이루어지며 학문적 성과뿐만 아니라 학회 운영의 사회적 책임에 대한 성찰도 함께 이루어진 해였다.3 한편, CoRL은 머신러닝의 이론적 성과를 로봇 공학이라는 물리적 현실의 제약 조건 아래 구현하고 검증하는 연구의 구심점 역할을 수행했다.5 이론과 실제 사이의 간극을 좁히고 지능형 로봇의 실현 가능성을 탐색하는 핵심적인 연구들이 바로 이 학회에서 발표되었다. 따라서 2018년 12월, 캐나다 몬트리올에서 개최된 NeurIPS와 스위스 취리히에서 열린 CoRL의 발표 내용은 당시 인공지능 및 로봇 공학 연구의 최전선이 어디를 향하고 있었는지를 명확하게 보여주는 지표라 할 수 있다.
본 보고서는 체계적인 분석을 위해 총 3장으로 구성된다. 제1장에서는 NeurIPS 2018에서 최우수 논문상(Best Paper Award)을 수상한 네 편의 기념비적인 연구를 심층적으로 분석한다. 이를 통해 딥러닝 모델링, 분산 최적화, 통계적 학습 이론, 강화학습 등 핵심 분야에서 제시된 새로운 이론과 방법론의 지평을 탐색한다. 제2장에서는 CoRL 2018의 주요 발표, 특히 최우수 시스템 논문상 수상 연구와 로봇 조작 분야의 혁신적 연구를 중심으로, 로봇 학습이 어떻게 시뮬레이션의 한계를 넘어 현실 세계의 복잡성과 동적인 불확실성을 극복하기 시작했는지 살펴본다. 마지막으로 제3장에서는 이러한 학술적 성과들을 당시 광범위하게 이루어지던 로봇 공학 분야의 전반적인 혁신 동향 속에 위치시켜, 하드웨어와 소프트웨어의 공진화(co-evolution)라는 더 넓은 기술적 맥락 안에서 그 의미를 해석한다. 이를 통해 2018년 12월이 인공지능과 로봇 공학의 미래 연구 방향을 결정지은 중요한 분기점이었음을 논증하고자 한다.
2. NeurIPS 2018 최우수 논문상 심층 분석: 이론과 방법론의 새로운 지평
2018년 NeurIPS는 특정 단일 주제가 아닌, 네 편의 서로 다른 분야의 논문에 최우수 논문상을 공동으로 수여하는 이례적인 결정을 내렸다.7 이는 딥러닝 모델링의 근본적인 재해석, 대규모 분산 최적화의 이론적 한계 돌파, 고전적인 통계 문제에 대한 최종적인 해답 제시, 그리고 강화학습의 고질적인 불안정성 문제 해결 등 여러 핵심 분야에서 동시에 중대한 학문적 진전이 이루어졌음을 시사하는 상징적인 사건이었다. 이 네 편의 연구는 각각 기존 패러다임에 과감히 도전하고, 오랫동안 난제로 여겨졌던 문제들에 대해 깊이 있는 이론적 해답을 제시하며, 향후 수년간 관련 분야의 연구 방향을 설정하는 결정적인 이정표가 되었다. 다음 표는 각 논문의 핵심 내용을 요약한 것이다.
| 논문 제목 (Title) | 핵심 문제 (Core Problem) | 제안된 해결책 (Proposed Solution) | 주요 기여 (Key Contribution) |
|---|---|---|---|
| Neural Ordinary Differential Equations | 이산적(discrete) 신경망의 메모리 및 계산 비효율성 | 신경망의 동역학을 상미분방정식(ODE)으로 모델링 | 연속-깊이 모델, 상수 메모리 비용, 적응적 계산 |
| Optimal Algorithms for Non-Smooth… | 비평활(non-smooth) 함수에 대한 분산 최적화의 수렴률 | MSPD 및 DRS 알고리즘 제안 | 지역/전역 정규성 가정 하 최적/준최적 수렴률 달성 |
| Nearly tight sample complexity… | 가우시안 혼합 모델(GMM) 학습에 필요한 표본 수 | 표본 압축(sample compression) 기반의 새로운 기법 | GMM 학습에 대한 거의 정확한(tight) 표본 복잡도 경계 증명 |
| Non-delusional Q-learning… | 함수 근사 Q-러닝의 ‘망상 편향(delusional bias)’ | 정보 집합(information sets)을 이용한 정책 일관성 확보 | 일반적 조건 하에서 최적성을 보장하는 최초의 알고리즘 |
2.1 연속적 깊이 모델의 패러다임: 신경 보통 미분 방정식 (Neural Ordinary Differential Equations)
2.1.1 문제 정의: 이산적 깊이의 한계
2018년 이전까지, 심층 신경망(Deep Neural Networks)의 설계는 본질적으로 이산적인(discrete) 과정이었다. 특히 ResNet(Residual Network)과 같은 혁신적인 아키텍처는 은닉 상태(hidden state)를 순차적인 층(layer)을 통해 변환하는 업데이트 규칙에 기반했다.10 이 규칙은 수학적으로 다음과 같이 표현될 수 있다.
h_{t+1} = h_t + f(h_t, \theta_t)
여기서 h_t는 t번째 층의 은닉 상태를, f는 신경망으로 구성된 비선형 변환 함수를, \theta_t는 해당 층의 파라미터를 나타낸다. 이러한 구조는 딥러닝의 성공을 이끌었지만, 동시에 몇 가지 근본적인 한계를 내포하고 있었다. 첫째, 모델의 깊이, 즉 층의 수가 증가함에 따라 역전파(backpropagation) 과정에서 각 층의 활성화 값을 저장해야 하므로 메모리 사용량이 선형적으로 증가했다. 둘째, 각 층마다 순차적인 계산이 필요하여 훈련 및 추론 시간이 길어지는 문제가 있었다. 마지막으로, 모델의 깊이 자체를 결정하는 것이 중요한 하이퍼파라미터가 되어, 아키텍처 설계에 상당한 경험적 노하우가 요구되었다.
2.1.2 핵심 아이디어: 이산에서 연속으로의 전환
“Neural Ordinary Differential Equations” 논문은 이러한 이산적 구조의 한계를 극복하기 위해 패러다임을 근본적으로 전환했다. 저자들은 ResNet의 업데이트 규칙이 상미분방정식(Ordinary Differential Equation, ODE)을 오일러 방법(Euler’s method)으로 이산화(discretization)한 형태와 유사하다는 기존의 관찰 10에서 한 걸음 더 나아갔다. 그들은 이산적인 변환을 근사하는 대신, 은닉 상태의 ‘변화율’ 자체를 하나의 신경망으로 매개변수화하는 연속적인 동역학 시스템(continuous dynamical system)을 제안했다.9
\frac{dh(t)}{dt} = f(h(t), t, \theta)
이 모델에서 ’깊이’는 더 이상 층의 개수가 아니라, 연속적인 시간 변수 t에 해당한다. 입력 데이터는 시간 t_0에서의 초기 상태 h(t_0)로 간주되며, 모델의 최종 출력은 이 ODE 초기값 문제(Initial Value Problem)를 특정 시간 t_1까지 적분하여 얻어지는 h(t_1)이 된다. 이 계산은 오일러 방법보다 훨씬 정교하고 효율적인 현대적인 수치해석 ODE 솔버(solver)를 통해 수행된다.10
2.1.3 주요 기여 및 분석
이러한 연속적 접근 방식은 기존 딥러닝 모델과 비교하여 몇 가지 혁신적인 장점을 제공했다.
첫째, **상수 메모리 비용(Constant Memory Cost)**을 달성했다. 기존의 역전파는 순전파 과정의 모든 중간 활성화 값을 저장해야 했다. 하지만 Neural ODE는 수반 감도 방법(Adjoint Sensitivity Method)이라는 기법을 사용하여 이 문제를 해결했다.10 이 방법은 손실 함수 L의 기울기(수반 상태, Adjoint state, a(t) = \partial L / \partial h(t))가 따르는 또 다른 ODE를 시간의 역방향으로 풀어, 초기 상태 h(t_0)에 대한 기울기를 직접 계산한다. 이 과정은 중간 상태 값들을 저장할 필요 없이, ODE 솔버를 한 번 더 호출하는 것만으로 이루어진다. 결과적으로 모델의 평가에 필요한 계산 복잡도와 무관하게 상수 수준의 메모리만을 요구하는, 놀랍도록 효율적인 학습이 가능해졌다.
둘째, **적응적 계산(Adaptive Computation)**이 가능해졌다. 현대적인 ODE 솔버는 단순히 고정된 스텝 사이즈로 적분을 수행하는 것이 아니라, 수치적 오차를 원하는 허용 범위 내로 제어하기 위해 평가 전략(예: 스텝 사이즈, 사용하는 공식의 차수 등)을 동적으로 조절한다.10 이는 Neural ODE 모델이 입력 데이터의 복잡도에 따라 계산 비용을 스스로 조절할 수 있음을 의미한다. 예를 들어, 분류 경계에서 멀리 떨어진 쉬운 데이터에 대해서는 큰 스텝으로 빠르게 계산을 마칠 수 있고, 경계 근처의 어려운 데이터에 대해서는 작은 스텝으로 정밀하게 계산을 수행할 수 있다. 이는 불필요한 계산을 줄여 전체적인 효율성을 크게 향상시킨다.
셋째, **연속 정규화 흐름(Continuous Normalizing Flows)**이라는 새로운 생성 모델을 제시했다. 정규화 흐름(Normalizing Flows)은 간단한 확률 분포를 복잡한 데이터 분포로 변환하는 가역적인(invertible) 신경망을 학습하는 생성 모델이다. 이 모델의 학습 과정에서는 변수 변환 공식에 따라 야코비안 행렬식(Jacobian determinant)을 계산해야 하는데, 이는 계산 비용이 매우 높아 모델의 구조에 심각한 제약을 가하는 주요 병목 지점이었다. Neural ODE 기반의 모델에서는 이 변수 변환 공식이 야코비안 행렬의 대각합(trace)의 적분으로 표현된다. 대각합은 행렬식보다 계산이 훨씬 용이하며, 특히 허치슨의 추정량(Hutchinson’s trace estimator)을 사용하면 모델 구조에 대한 제약 없이 확률적으로 효율적인 추정이 가능하다.9 이는 더 표현력 높고 확장 가능한 생성 모델의 가능성을 열었다.
이 연구는 단순히 새로운 모델 아키텍처를 제안한 것을 넘어, 딥러닝 모델 설계의 철학 자체에 깊은 영향을 미쳤다. 기존의 ’층’이라는 이산적이고 구조적인 개념을 ’시간’이라는 연속적이고 동적인 개념으로 대체함으로써, 모델 설계를 ’아키텍처 공학(architectural engineering)’의 관점에서 ’동역학 시스템 설계(dynamical system design)’의 관점으로 전환시키는 계기를 마련했다. 모델의 성능은 더 이상 층의 개수나 연결 구조와 같은 정적인 요소에만 의존하는 것이 아니라, ODE를 푸는 데 필요한 적분 시간, 허용 오차, 그리고 동역학 함수 f의 특성에 의해 결정된다. 이러한 관점의 전환은 머신러닝 커뮤니티와 응용수학 및 과학 컴퓨팅 커뮤니티 간의 교류를 촉진하는 강력한 촉매제 역할을 했다. 실제로 이 논문 발표 이후, 물리 법칙을 따르는 미분방정식에 신경망을 결합하여 시스템을 모델링하는 물리 정보 기반 신경망(Physics-Informed Neural Networks, PINNs)과 같은 융합 연구 분야가 폭발적으로 성장하는 데 중요한 이론적, 방법론적 기반을 제공했다.14
그러나 이 혁신적인 모델은 동시에 명확한 한계도 가지고 있었다. ODE의 해(flow)는 위상동형(homeomorphism)의 성질을 가지므로, 입력 공간의 위상 구조를 보존한다. 이는 예를 들어, 서로 얽혀 있거나 교차하는 두 데이터 군집을 선형적으로 분리 가능한 공간으로 매핑하는 것과 같은 특정 종류의 함수를 표현할 수 없다는 근본적인 한계를 의미한다.12 이처럼 명확한 이론적 한계의 제시는 그 자체로 중요한 학문적 기여였다. 이 한계를 극복하기 위한 연구가 즉각적으로 촉발되었고, 그 결과 발표 직후 ’증강 신경 ODE(Augmented Neural ODEs, ANODEs)’와 같은 후속 연구가 등장했다.12 ANODE는 상태 공간을 더 높은 차원으로 ’증강(augment)’시켜 위상적 제약을 우회함으로써, 더 복잡하고 풍부한 동역학을 학습할 수 있게 했다. 이는 성공적인 연구가 단지 해답을 제공하는 데 그치지 않고, 명확한 한계를 제시함으로써 학계에 새로운 질문을 던지고 후속 연구의 물결을 이끌어내는 과정을 보여주는 대표적인 사례라 할 수 있다.
2.2 분산 최적화의 한계 극복: 비평활 볼록 함수를 위한 최적 알고리즘 (Optimal Algorithms for Non-Smooth Distributed Optimization in Networks)
2.2.1 문제 정의: 대규모 분산 학습의 병목
현대의 머신러닝은 수십억 개의 데이터 포인트를 처리하며, 이는 단일 머신으로는 감당하기 어려운 규모이다. 따라서 수많은 컴퓨팅 노드(node)로 구성된 네트워크를 활용하는 분산 학습(distributed learning)이 필수적이다. 분산 학습 환경에서 각 노드는 전체 데이터셋의 일부(로컬 데이터)만을 가지고 있으며, 목표는 모든 노드의 로컬 목적 함수 f_i의 평균인 전역 목적 함수 \bar{f} = \frac{1}{n} \sum_{i=1}^{n} f_i(\theta)를 최소화하는 파라미터 \theta를 찾는 것이다. 모든 데이터를 중앙 서버로 모으는 중앙 집중식 방식은 통신 비용과 개인정보 보호 문제로 인해 비현실적이다. 대안은 각 노드가 로컬 데이터를 이용해 모델 파라미터를 업데이트하고, 그 결과를 이웃 노드와 주기적으로 통신하며 점진적으로 전역 최적해에 수렴해가는 분산 최적화(distributed optimization) 방식이다.7
이 방식의 가장 큰 난제는 통신 병목이다. 네트워크를 통한 데이터 전송은 노드 내부의 계산에 비해 매우 느리다. 따라서 알고리즘의 전체 성능은 통신 횟수와 통신 효율성에 크게 좌우된다. 특히, 목적 함수가 절댓값 함수나 SVM의 힌지 손실(hinge loss)처럼 미분 불가능한 지점을 포함하는 비평활(non-smooth) 볼록 함수일 경우, 수렴 속도에 대한 이론적 분석은 훨씬 더 복잡하고 어려워진다.
2.2.2 핵심 아이디어: 정규성 가정에 따른 최적 알고리즘 설계
이 연구는 비평활 분산 최적화라는 어려운 문제에 정면으로 도전했다. 저자들은 문제의 정규성(regularity), 즉 함수가 얼마나 ’잘 제어되는지’에 따라 문제를 두 가지 시나리오로 나누어 접근하는 전략을 취했다.7
-
지역 정규성 (Local Regularity): 각 노드가 가진 개별 로컬 함수 f_i가 립시츠 연속(Lipschitz continuous)이라고 가정하는 경우. 이는 각 로컬 함수가 급격하게 변하지 않음을 의미한다.
-
전역 정규성 (Global Regularity): 모든 로컬 함수의 평균인 전역 함수 \bar{f}가 립시츠 연속이라고 가정하는 경우. 이는 개별 함수들은 변동이 심할 수 있지만, 전체적으로 평균을 내면 그 변동성이 완화된다는 더 약한 가정이다.
이처럼 문제의 가정을 명확히 분리하고 각 시나리오에 맞는 최적의 알고리즘과 수렴률을 제시하는 것이 이 연구의 핵심적인 접근 방식이었다.
2.2.3 주요 기여 및 분석
각 정규성 가정에 따라, 이 논문은 서로 다른 알고리즘과 중요한 이론적 결과를 제시했다.
지역 정규성 가정 하에서는 Multi-step Primal-Dual (MSPD) 알고리즘을 제안했다. 이는 비평활 분산 최적화 문제에 대해 이론적으로 최적의 수렴률을 달성하는 최초의 1차 분산 알고리즘이었다.7 이 알고리즘의 수렴률 분석은 학계에 놀라운 발견을 안겨주었다. 알고리즘의 오차(error)를 분석한 결과, 오차의 주항(dominant term), 즉 수렴 속도를 결정하는 가장 큰 부분은 계산 복잡도에만 의존하며 시간 t에 대해 O(1/\sqrt{t})의 속도로 감소했다. 반면, 통신 네트워크의 구조(예: 노드 간 연결성, 통신 지연 시간)의 영향은 O(1/t)라는 훨씬 빠른 속도로 감소하는 2차항에만 국한되었다.16 이는 통신 자원의 한계로 인해 발생하는 오차가 예상보다 훨씬 빠르게 사라지며, 충분한 시간이 지나면 알고리즘의 성능은 통신 환경이 아닌 각 노드의 계산 능력에 의해 결정된다는 것을 수학적으로 증명한 것이다.
더 어렵고 일반적인 전역 정규성 가정 하에서는 Distributed Randomized Smoothing (DRS) 알고리즘을 제안했다. 이 알고리즘은 각 노드에서 비평활 함수에 가우시안 노이즈를 더해 기댓값을 취함으로써 함수를 인위적으로 부드럽게 만드는 무작위 평활화(randomized smoothing) 기법을 분산 환경에 적용한 것이다.7 DRS는 개념적으로 간단하면서도 강력한 성능을 보였다. 이론적 분석 결과, 이 알고리즘은 최적 수렴률에 데이터의 차원 d에 대한 d^{1/4}라는 작은 multiplicative factor만큼 근접하는 준최적(near-optimal) 성능을 달성함을 보였다.15
이 연구는 분산 최적화 분야, 특히 통신 병목 문제에 대한 기존의 통념에 중요한 수정을 가했다. 이전까지 분산 학습에서 통신은 수렴 속도를 결정하는 절대적인 병목으로 여겨졌다. 따라서 많은 연구가 통신 횟수를 줄이거나 통신량을 압축하는 데 초점을 맞추었다. 그러나 이 논문의 핵심 결과, 즉 비평활 문제에서 통신 네트워크의 영향이 2차항에 국한된다는 수학적 증명은 16 통신이 항상 지배적인 요소는 아닐 수 있음을 보여주었다. 이는 통신의 영향이 빠르게 감소하여 결국에는 계산 복잡도가 전체 수렴 속도를 지배하게 된다는 새로운 관점을 제시했다. 이 발견은 분산 알고리즘 설계의 연구 방향에 미묘하지만 중요한 변화를 가져왔다. 연구의 초점은 단순히 ’통신 횟수를 줄이는 것’에서 ’각 통신 라운드에서 더 의미 있는 정보를 교환하고 계산을 수행하는 것’으로 이동하기 시작했다. 또한, 이 연구는 네트워크 토폴로지 변화에 덜 민감한 강건한 알고리즘 개발의 중요한 이론적 토대를 마련했다. 실제로 이 논문 이후, 통신과 계산 복잡도의 하한(lower bounds)을 더 정밀하게 분석하고, 이를 만족하는 최적 알고리즘을 설계하려는 후속 연구들이 활발하게 이루어졌는데 17, 이는 이 연구가 제시한 새로운 이론적 지평의 직접적인 영향이라 볼 수 있다.
2.3 분포 학습의 이론적 진보: 가우시안 혼합 모델의 표본 복잡도 (Nearly Tight Sample Complexity Bounds for Learning Mixtures of Gaussians via Sample Compression Schemes)
2.3.1 문제 정의: GMM 학습의 근본적인 질문
비지도 학습(unsupervised learning)의 가장 핵심적이고 고전적인 문제 중 하나는 관찰된 데이터가 어떤 확률 분포로부터 생성되었는지를 추정하는 것이다. 특히, 데이터가 여러 개의 가우시안 분포가 혼합된 형태, 즉 가우시안 혼합 모델(Gaussian Mixture Model, GMM)로부터 생성되었다고 가정하는 것은 매우 일반적이고 강력한 모델링 방식이다. 수십 년 동안 통계학과 머신러닝 분야의 연구자들은 “주어진 오차 \epsilon 내로 실제 GMM 분포를 학습하기 위해 이론적으로 필요한 최소 표본의 개수(sample complexity)는 얼마인가?“라는 근본적인 질문에 답하고자 노력해왔다.19 이 질문에 대한 답은 알고리즘의 효율성을 평가하고, 주어진 데이터로 신뢰할 수 있는 모델을 학습할 수 있는지 판단하는 이론적 기준이 되기 때문에 매우 중요하다.
2.3.2 핵심 아이디어: 표본 압축 (Sample Compression)
이 난제를 해결하기 위해, 연구팀은 머신러닝 이론의 다른 분야에서 사용되던 강력한 도구를 창의적으로 도입했다. 바로 ’표본 압축(sample compression)’이라는 개념이다.9 표본 압축은 본래 지도 학습(supervised learning)의 PAC(Probably Approximately Correct) 학습 이론에서 유래한 개념으로, 어떤 가설 클래스(hypothesis class)의 특정 가설을 소수의 ‘대표’ 표본만으로 완벽하게 인코딩(encode)하고, 이 대표 표본들로부터 원래의 가설을 복원(decode)할 수 있다면, 그 가설 클래스는 적은 수의 표본만으로도 학습이 가능하다는 아이디어다. 저자들은 이 개념을 비지도 학습, 특히 분포의 밀도를 추정하는 문제에 적용했다. 즉, 어떤 분포 클래스(예: 가우시안 분포들의 집합) 내의 임의의 분포를, 그 분포에서 추출한 소수의 대표 표본들만으로 충분히 가깝게 근사할 수 있음을 보인다면, 해당 분포 클래스의 학습에 필요한 표본 복잡도의 상한(upper bound)을 증명할 수 있다는 것이다.
2.3.3 주요 기여 및 분석
이러한 독창적인 접근법을 통해 연구팀은 GMM의 표본 복잡도에 대한 거의 최종적인 이론적 결과를 도출했다.
첫째, 거의 정확한(nearly tight) 경계 증명에 성공했다. 연구팀은 먼저 단일 d-차원 가우시안 분포 클래스가 효율적인 표본 압축이 가능함을 수학적으로 증명했다. 그리고 이 결과를 혼합 모델(mixtures)과 곱 모델(products)로 확장할 수 있다는 보조 정리를 통해, 최종적으로 k개의 d-차원 GMM을 총 변동 거리(total variation distance) 오차 \epsilon 내로 학습하는 데 필요한 표본 복잡도가 \Theta(k d^2 / \epsilon^2)임을 증명했다.9 여기서 \Theta 표기는 상한과 하한이 점근적으로 일치함을 의미하며, 이는 이 결과가 더 이상 개선될 여지가 거의 없는 ‘정확한’ 경계임을 시사한다. 이 성과는 수십 년간 알려져 있던 기존의 상한과 하한을 모두 크게 개선한 기념비적인 결과였다.
둘째, 축 정렬 가우시안(axis-aligned Gaussians)에 대한 정밀한 분석을 제공했다. 공분산 행렬이 대각 행렬로 제한되는 더 간단한 경우에 대해서는, 필요한 표본의 수가 O(k d / \epsilon^2)개로 충분함을 보여, 이미 알려져 있던 하한과 정확히 일치시켰다.21 이는 제안된 분석 방법론의 정교함을 다시 한번 입증하는 결과였다.
이 연구는 캐나다 유수의 대학에 소속된 세계적인 이론 컴퓨터 과학 및 머신러닝 연구자들의 협력으로 이루어졌다. 주요 저자로는 Shai Ben-David (University of Waterloo) 8, Nicholas Harvey (University of British Columbia) 25, Christopher Liaw (당시 UBC 박사과정) 27, Abbas Mehrabian (McGill University) 29, Yaniv Plan (University of British Columbia) 31 등이 참여했다.
이 연구의 가장 중요한 학문적 의의는 단순히 GMM 문제에 대한 해답을 제공한 것을 넘어, 분포 학습 문제 전반에 적용될 수 있는 새로운 ’방법론적 틀’을 제시했다는 점에 있다. 지도 학습 이론의 핵심 도구였던 ’표본 압축’을 비지도 학습인 밀도 추정 문제에 창의적으로 융합함으로써 19, 두 분야 사이의 이론적 경계를 허물고 한 분야의 강력한 이론적 도구가 다른 분야의 오랜 난제를 해결할 수 있음을 보여주었다. 이는 이론적 도구의 창의적 융합이 어떻게 학문적 돌파구를 만들어내는지를 보여주는 대표적인 사례다. 이 방법론의 일반성과 강력함은 후속 연구들을 통해 입증되었다. 실제로 이 논문 발표 이후, 많은 연구자들이 이 표본 압축 프레임워크를 차분 프라이버시(differential privacy)를 만족하는 학습, 적대적 노이즈에 강건한 학습(robust learning) 등 다양한 설정으로 성공적으로 확장했으며, 이는 이 연구가 제시한 방법론이 특정 문제를 넘어 광범위한 적용 가능성을 가졌음을 방증한다.23
2.4 강화학습의 근본적 오류 해결: 망상 없는 Q-러닝 (Non-delusional Q-learning and Value-iteration)
2.4.1 문제 정의: 함수 근사의 배신, ‘망상 편향’
Q-러닝(Q-learning)과 같은 가치 기반 강화학습(Reinforcement Learning, RL) 알고리즘에 심층 신경망과 같은 강력한 함수 근사기(function approximator)를 결합하는 것은 대규모 상태 공간을 가진 복잡한 문제를 해결하기 위한 표준적인 접근법이 되었다. 그러나 이론적 보장이 있는 테이블 형태의 Q-러닝과 달리, 함수 근사를 사용하는 경우 학습이 불안정해지거나 심지어 발산하는 문제가 빈번하게 발생한다. 이 연구는 이러한 불안정성의 근본적인 원인 중 하나로 ’망상 편향(Delusional Bias)’이라는 새로운 개념을 제시하고 이를 정밀하게 분석했다.33
’망상 편향’의 메커니즘은 함수 근사기의 ’표현력 제약’과 벨만 업데이트의 ‘탐욕적(greedy) 본질’ 사이의 근본적인 충돌에서 비롯된다. 표준적인 Q-업데이트는 다음 상태 s'에서의 가치를 추정하기 위해 \max_{a'} Q(s', a') 항을 사용한다. 이는 모든 다음 상태 s'에서 독립적으로 최적의 행동 a'을 선택할 수 있다고 암묵적으로 가정하는 것이다. 하지만 신경망과 같은 함수 근사기는 표현할 수 있는 Q-함수들의 집합, 그리고 그 Q-함수들로부터 유도되는 탐욕 정책(greedy policy)들의 집합에 제약을 가진다. 이로 인해, 각 상태에서 개별적으로 max 연산을 통해 선택된 행동들을 모두 모아놓은 정책이, 실제로는 함수 근사기가 표현할 수 있는 정책 클래스 내에 존재하지 않는 ‘불가능한’ 정책일 수 있다.33 알고리즘이 이처럼 실현 불가능한, 즉 ‘망상적인’ 정책이 달성할 수 있다고 믿는 가치를 기반으로 업데이트를 계속 진행하면, Q-값의 지속적인 과대/과소 추정, 학습의 불안정성, 그리고 최악의 경우 발산으로 이어지게 된다.
2.4.2 핵심 아이디어 및 기여
이러한 근본적인 문제를 해결하기 위해, 연구팀은 가치 업데이트 과정에 정책의 실현 가능성을 명시적으로 고려하는 새로운 접근법을 제안했다.
첫째, **정책 일관성(Policy Consistency)**이라는 새로운 개념을 도입했다. 이는 모든 가치 추정 및 업데이트가 함수 근사기로 표현 가능한 ‘단일’ 정책에 의해 일관되게 지지되어야 한다는 원칙이다.33 즉, 서로 다른 상태에서의 행동 선택이 상호 양립 가능해야 한다는 제약 조건을 부과한 것이다.
둘째, 이 정책 일관성을 강제하기 위한 구체적인 방법론으로 **정보 집합(Information Sets)**을 사용한 새로운 백업 연산자(backup operator)를 개발했다. 이 방법은 단순히 단일 Q-값을 백업하는 대신, 여러 후보 Q-값들과 함께, 각 후보 값을 정당화하는 정책에 대한 제약 조건(예: ‘상태 s_1에서는 행동 a_1을 선택해야 한다’)을 ’정보 집합’의 형태로 함께 전파하고 관리한다.33 이를 통해 모든 가치 추정이 항상 표현 가능한 정책 공간 내에서 이루어지도록 보장한다.
이러한 새로운 백업 방식을 적용한 모델 기반(가치 반복) 및 모델 프리(Q-러닝) 알고리즘은 망상 편향을 근본적으로 제거하며, 일반적인 조건 하에서 최적의 결과를 보장하는 최초의 알고리즘임을 수학적으로 증명했다.33 이는 함수 근사를 사용하는 강화학습 분야에서 매우 중요한 이론적 성과였다.
이 연구는 딥 강화학습의 불안정성 문제에 대해 이전과는 다른 차원의 근본적인 진단을 제공했다는 점에서 큰 의의를 가진다. 기존에 알려진 ’치명적인 삼각관계(Deadly Triad)’와 같은 설명들이 현상의 여러 측면을 포괄적으로 지적했다면, ’망상 편향’은 함수 근사기의 ’표현력 제약’과 벨만 업데이트의 ’탐욕적 본질’이라는 두 핵심 요소 사이의 근본적인 충돌을 직접적으로, 그리고 정밀하게 파고들었다. 이러한 진단은 기존의 불안정성 완화 기법들에 대한 더 깊은 이론적 해석의 틀을 제공한다. 예를 들어, Double Q-learning이 Q-값 과대 추정을 완화하는 이유는, 행동 선택과 가치 평가에 서로 다른 Q-함수를 사용함으로써, 모든 상태에서 우연히 max 값이 동시에 높게 평가되는 ‘망상적’ 상황의 발생 확률을 통계적으로 줄여주기 때문이라고 재해석할 수 있다. 이처럼 근본 원인에 대한 명확한 규명은 강화학습 알고리즘의 신뢰성과 안전성을 높이는 데 중요한 이론적 토대를 제공했다. 이 연구의 영향으로, 이후 학계에서는 함수 근사로 인해 발생하는 미묘하고 복잡한 부작용들, 예를 들어 학습 과정에서 파라미터 업데이트가 의도치 않은 다른 상태의 가치 추정에 미치는 영향인 ‘변동성(churn)’ 문제를 분석하는 등 37, 학습 동역학에 대한 더욱 깊이 있는 탐구가 이루어지는 계기가 되었다.
3. CoRL 2018 주요 로봇 학습 연구 동향: 현실 세계로의 도약
2018년 로봇학습학회(CoRL)에서는 로봇 학습 연구의 무게 중심이 통제된 실험실 환경을 벗어나, 예측 불가능하고 복잡한 현실 세계의 문제에 본격적으로 도전하는 방향으로 이동하고 있음을 명확히 보여주는 연구들이 두각을 나타냈다.5 특히, 시뮬레이션에서 학습한 정책을 실제 로봇으로 성공적으로 이전하는 기술, 그리고 수많은 실제 로봇 상호작용 데이터를 통해 일반화 능력을 극대화하는 대규모 학습 패러다임이 핵심적인 화두로 떠올랐다. 본 장에서는 CoRL 2018 최우수 시스템 논문상(Best System Paper Award)을 수상하며 동적 환경에서의 자율 비행 가능성을 입증한 ‘딥 드론 레이싱’ 연구와, 대규모 실제 데이터를 기반으로 로봇 파지(grasping) 분야에 혁신을 가져온 ‘QT-Opt’ 연구를 중심으로 당시 로봇 학습의 최전선을 심층 분석한다.
3.1 동적 환경에서의 민첩한 비행: 딥 드론 레이싱 (Deep Drone Racing: Learning Agile Flight in Dynamic Environments)
3.1.1 문제 정의: 고속 자율 비행의 난제
드론 레이싱과 같이, 고속으로 비행하며 동적으로 움직일 수 있는 게이트(gate)를 순서대로 통과해야 하는 임무는 자율 로봇 공학이 직면한 가장 어려운 도전 과제들을 집약적으로 보여준다. 이러한 환경에서 로봇은 첫째, 고속 기동으로 인한 모션 블러와 급격한 조명 변화 속에서 자신의 위치와 자세를 정확하게 추정해야 하는 신뢰할 수 없는 상태 추정(unreliable state estimation) 문제에 직면한다. 둘째, 목표물인 게이트가 예측 불가능하게 움직일 수 있으므로 동적 환경에 실시간으로 반응해야 한다. 셋째, 이 모든 인지, 판단, 제어 과정을 소형 드론에 탑재된 제한된 온보드 컴퓨팅 자원 내에서 실시간으로 처리해야 한다.41 기존의 SLAM(Simultaneous Localization and Mapping) 기술을 이용해 사전에 생성된 지도를 기반으로 전역 경로를 추종하는 방식은 환경이 대부분 정적(static)이라고 가정하기 때문에, 이러한 동적인 문제에 효과적으로 적용하기 어렵다.41
3.1.2 핵심 아이디어: 인지와 제어의 하이브리드 결합
이 연구는 ‘End-to-End’ 학습의 강건함과 고전적인 ‘모듈화’ 제어 방식의 정밀함을 결합하는 독창적인 하이브리드 시스템을 제안함으로써 이 문제에 대한 돌파구를 마련했다.39 시스템은 두 개의 핵심 모듈로 구성된다.
-
인지 모듈 (Perception Module): 심층 컨볼루션 신경망(CNN)이 드론 전면에 장착된 카메라로부터 들어오는 원시 이미지(raw image)를 직접 입력받는다. 이 CNN은 복잡한 시각적 장면을 해석하여, 전역 좌표계나 정밀한 상태 추정 정보에 의존하지 않고, 이미지 좌표계 상에서 다음 목표 지점(게이트의 중심)의 ’방향’과 그곳까지 도달하기 위한 ’원하는 속도’를 직접 출력한다. 이는 인지 과정을 전역 지도 기반의 ‘위치 파악’ 문제에서 로컬 시각 정보 기반의 ‘방향 탐색’ 문제로 재정의하여 강건성을 높인 것이다.42
-
제어 모듈 (Control Module): 인지 모듈이 제시한 로컬 목표 지점과 속도 정보를 입력받아, 최신의 경로 계획 및 제어 알고리즘이 이 목표에 도달하기 위한 짧고 부드러운 최적 궤적(minimum-jerk trajectory)과 이를 실행하기 위한 모터 명령을 실시간으로 생성한다. 이는 CNN이 ’무엇을 할지(what to do)’를 결정하면, 고전적인 제어기가 ’어떻게 할지(how to do it)’를 정밀하게 계산하는 역할 분담 구조다.42
3.1.3 주요 기여 및 분석
이 하이브리드 접근법은 여러 중요한 성과를 거두었다. 첫째, 성공적인 Sim-to-Real 전이를 보여주었다. 연구팀은 물리 엔진 기반의 사실적인 시뮬레이터 안에서 조명, 게이트의 모양과 질감 등을 무작위로 바꾸는 도메인 무작위화(domain randomization) 기법을 사용하여 CNN을 훈련시켰다. 이렇게 학습된 인지 모델은 별도의 미세 조정(fine-tuning) 없이 실제 드론에 그대로 이식되어(zero-shot transfer), 현실 세계에서도 성공적으로 민첩한 비행을 수행했다.41 이는 시뮬레이션이 실제 로봇 학습의 데이터 수집 비용과 위험을 크게 줄일 수 있는 효과적인 도구임을 입증한 것이다.
둘째, 뛰어난 동적 환경 대응 능력을 입증했다. 시스템이 전역 지도나 과거 정보에 의존하지 않고, 매 순간의 시각적 입력에만 기반하여 반응하므로, 게이트가 예측 불가능하게 움직이는 동적인 환경에서도 강건하게 목표를 추적하고 통과할 수 있음을 실험적으로 보여주었다.42
이러한 성과를 바탕으로, 이 연구는 CoRL 2018에서 **최우수 시스템 논문상(Best System Paper Award)**을 수상하며 그 시스템적 완성도와 실용적 가치를 학계로부터 공식적으로 인정받았다.39
이 연구의 성공은 당시 로봇 학습계에서 활발히 논의되던 두 가지 주요 패러다임, 즉 ‘End-to-End’ 학습과 전통적인 ‘모듈화’ 접근법 사이의 이상적인 절충점을 제시했다는 점에서 중요한 의미를 가진다. End-to-End 방식은 원시 센서 입력으로부터 최종 행동 출력까지를 단일 신경망으로 학습하여 강력한 성능을 낼 수 있지만, 방대한 데이터가 필요하고 학습된 정책을 해석하거나 디버깅하기 어려운 단점이 있었다. 반면, 인지, 계획, 제어를 명확한 모듈로 분리하는 전통적인 방식은 안정적이고 해석이 용이하지만, 각 모듈 간의 인터페이스를 설계하기 복잡하고 전체 시스템 관점에서 최적화를 보장하기 어려웠다. 이 연구는 42 두 패러다임의 장점만을 효과적으로 취하는 ‘하이브리드’ 접근법의 성공 가능성을 명확히 보여주었다. 즉, 복잡하고 비정형적인 데이터로부터 패턴을 학습하는 데 뛰어난 딥러닝은 인지(perception)와 같이 학습하기 어려운 부분에 활용하고, 수학적으로 잘 정의되고 효율적인 해법이 존재하는 궤적 생성 및 제어는 기존의 최적 제어 기법을 활용하는 것이다. 이는 로봇 학습 연구에 중요한 설계 원칙을 제시했다. 모든 것을 단일 신경망으로 해결하려는 시도보다, 주어진 문제의 구조를 깊이 이해하고 각 하위 문제의 특성에 가장 적합한 도구(학습 기반 방법 또는 고전적 방법)를 선택하여 지능적으로 결합하는 것이 더 실용적이고 강력한 해결책이 될 수 있다는 것이다. 이 접근법은 이후 다양한 복잡한 로봇 제어 문제 해결에 중요한 영감을 주었다.
3.2 대규모 실제 데이터를 통한 파지 능력 학습: QT-Opt (QT-Opt: Scalable Deep Reinforcement Learning for Vision-Based Robotic Manipulation)
3.2.1 문제 정의: 로봇 파지의 일반화 문제
로봇이 인간처럼 자연스럽게 물체를 집는 파지(grasping) 기술은 오랫동안 로봇 공학의 성배(Holy Grail)로 여겨져 왔다. 특히, 사전에 학습되지 않은 다양한 모양, 크기, 질감, 무게를 가진 처음 보는 물체를 성공적으로 집기 위해서는 높은 수준의 일반화(generalization) 능력이 필수적이다. 기존의 접근법들은 주로 물체의 3D 모델을 기반으로 기하학적 분석을 통해 파지 지점을 계산하거나, 비교적 소규모의 데이터셋을 이용해 특정 파지 전략을 학습하는 방식에 의존했다. 이러한 방법들은 통제된 환경에서는 준수한 성능을 보였지만, 현실 세계의 무한한 다양성과 불확실성 앞에서는 한계를 드러냈다.46
3.2.2 핵심 아이디어: 대규모 데이터와 확장 가능한 오프-정책 RL
QT-Opt 연구팀은 이 문제에 대해 ’알고리즘의 정교함’보다는 ’데이터의 힘’에 주목했다. 즉, ’충분히 많고 다양한 경험 데이터가 주어진다면, 강력한 딥러닝 모델이 스스로 일반화 가능한 파지 전략을 학습할 수 있을 것’이라는 딥러닝의 핵심 철학을 로봇 공학에 전례 없는 규모로 적용했다.46
이를 실현하기 위해 두 가지 핵심 요소를 구축했다. 첫째, 대규모 실제 데이터 수집 시스템이다. 연구팀은 7대의 실제 로봇 팔을 24시간 병렬로 가동하여, 수개월에 걸쳐 58만 건 이상의 실제 파지 시도 데이터를 자동으로 수집했다. 로봇은 무작위로 통에 담긴 물체를 집어 들어 올리는 시도를 반복했고, 그리퍼의 상태와 높이 센서를 이용해 파지의 성공 여부를 스스로 판단했다(self-supervised). 이 과정을 통해 사람의 개입을 최소화하면서 방대한 양의 경험 데이터를 축적할 수 있었다.46
둘째, 이렇게 수집된 방대한 데이터를 효율적으로 학습하기 위한 확장 가능한 오프-정책(off-policy) 강화학습 알고리즘인 QT-Opt를 개발했다. 오프-정책 방식은 과거에 수집된 데이터를 재사용하여 학습할 수 있으므로 데이터 효율성이 높다. QT-Opt는 연속적인 행동 공간(로봇 팔의 3D 이동 및 회전)에 적용 가능한 Q-러닝의 변형으로, 학습 불안정성의 주요 원인 중 하나인 액터-크리틱(actor-critic) 구조를 사용하지 않는 것이 특징이다. 대신, 오직 가치 함수(Q-함수, critic)만을 학습하고, 매 순간 학습된 Q-함수 값을 최대화하는 행동을 확률적 최적화(stochastic optimization)를 통해 찾아냄으로써 학습의 안정성을 크게 높였다.46
3.2.3 주요 기여 및 분석
이러한 대규모 데이터 기반 접근법은 로봇 파지 분야에 혁명적인 결과를 가져왔다. 첫째, SOTA(State-of-the-art) 성능을 달성했다. 58만 건의 오프-정책 데이터로 사전 학습하고, 소량의 온-정책 데이터로 미세 조정한 QT-Opt 모델은 훈련 데이터에 포함되지 않았던 처음 보는 물체들에 대해 96%라는 경이적인 파지 성공률을 기록했다.47 이는 당시 최고의 성능을 보이던 다른 시스템들에 비해 실패율을 75% 이상 감소시킨 결과였다.
둘째, **복잡하고 지능적인 창발적 행동(Emergent Behaviors)**이 관찰되었다. 연구팀은 로봇에게 단지 ’파지 성공 시 보상 +1’이라는 매우 희소하고(sparse) 단순한 보상 신호만을 주었다. 그럼에도 불구하고, 로봇은 이 단일 목표를 최적화하는 과정에서 인간이 설계하거나 의도하지 않은 매우 복잡하고 지능적인 행동들을 스스로 학습했다. 예를 들어, 옆으로 누워있어 집기 어려운 물병을 먼저 툭 쳐서 넘어뜨린 후 안정적인 자세에서 집거나(사전 조작, pre-grasp manipulation), 여러 물체가 뭉쳐 있을 때 팔로 흩어놓아 목표물을 고립시킨 후 집는(분리, singulation) 행동이 나타났다. 또한, 파지 시도 중 물체가 미끄러지거나 외부 방해를 받으면, 실시간으로 시각 정보를 이용해 그리퍼의 위치를 수정하는 동적인 대응 행동도 관찰되었다.46
셋째, 이 모든 성과를 최소한의 센서만으로 달성했다. 많은 로봇 파지 시스템이 정밀한 3D 형상 정보를 얻기 위해 깊이 카메라(depth camera)나 여러 각도의 카메라를 사용하는 것과 달리, QT-Opt는 로봇의 어깨 너머에 고정된 단일 RGB 카메라가 제공하는 2D 컬러 이미지 정보만을 사용했다.46 이는 강력한 학습 알고리즘이 제한된 감각 정보로부터도 풍부한 컨텍스트를 추출하여 복잡한 물리적 과제를 해결할 수 있음을 보여주었다.
QT-Opt의 성공은 로봇 학습 연구의 패러다임을 전환하는 결정적인 계기가 되었다. 이전까지의 연구들이 주로 더 정교한 알고리즘을 설계하는 데 초점을 맞추었다면, QT-Opt는 ’빅데이터’가 로봇 공학의 일반화 문제를 해결하는 핵심 열쇠임을 실증적으로 증명했다. 수십만 건의 실제 로봇 상호작용 데이터를 사용함으로써 규모의 차원을 바꾼 이 연구는 48, 로봇 공학 문제도 결국 충분한 양과 다양성의 데이터가 주어지면 강력한 함수 근사기(딥러닝)로 해결할 수 있다는 믿음을 학계에 심어주었다. 이는 Google의 ‘Everyday Robot’ 프로젝트와 같은 후속 대규모 로봇 학습 연구를 직접적으로 촉발했으며, 로봇 학습 커뮤니티의 연구 방향을 ’더 나은 알고리즘 설계’에서 ’더 많은 데이터를 더 효율적으로 수집하고 학습하는 시스템 설계’로 전환시키는 데 결정적인 역할을 했다. 오늘날 활발히 연구되는 로봇 파운데이션 모델(Robotics Foundation Models)의 개념은 바로 이러한 패러다임 전환의 연장선상에 있다.
또한, 이 연구는 로봇 조작에서 폐쇄 루프 제어(closed-loop control)의 진정한 가치를 입증했다. 기존의 많은 파지 시스템이 ’인식 후 계획(sense-then-plan)’이라는 순차적이고 개방 루프(open-loop)적인 방식으로 작동했던 반면, QT-Opt는 매 순간 카메라 이미지를 보고 다음 행동을 결정하는 연속적인 폐쇄 루프 제어 방식을 채택했다.46 로봇이 물체를 건드려보며 가장 좋은 파지 지점을 탐색하거나(probing), 예상치 못한 방해에 실시간으로 대응하는(corrective behaviors) 동적인 전략이 가능했던 것은 바로 이 덕분이었다. 이는 로봇 조작이 단순히 정적인 기하학 문제가 아니라, 로봇의 행동이 환경을 바꾸고, 바뀐 환경에 대한 관찰이 다시 로봇의 행동을 결정하는 연속적인 상호작용 루프를 최적화하는 동적인 문제임을 명확하게 보여주었다.
4. 2018년 로봇 공학 분야의 광범위한 혁신
2018년은 NeurIPS와 CoRL에서 발표된 기념비적인 학술적 성과뿐만 아니라, 로봇 하드웨어 기술과 상용화 측면에서도 중요한 진전이 이루어진 한 해였다. 이러한 하드웨어의 발전은 앞서 논의된 정교한 인공지능 및 머신러닝 알고리즘이 탑재되어 그 잠재력을 발휘할 수 있는 물리적 플랫폼을 제공했다는 점에서 중요한 의미를 가진다. 소프트웨어의 발전과 하드웨어의 혁신이 서로를 자극하며 함께 진화하는 모습은 당시 로봇 공학 분야의 역동성을 잘 보여준다.
4.1 주요 로봇 기술 동향
2018년에는 다양한 형태와 목적을 가진 로봇들이 등장하며 기술의 지평을 넓혔다. 특히 주목할 만한 몇 가지 사례는 다음과 같다.
인간형 로봇의 경이로운 발전 (Boston Dynamics Atlas): 로봇 공학 기업 Boston Dynamics의 인간형 로봇 Atlas는 2018년에 파쿠르(parkour) 동작을 수행하는 영상을 공개하며 전 세계에 큰 충격을 주었다. 불안정한 지형을 달리고, 장애물을 뛰어넘고, 심지어 공중제비를 도는 Atlas의 모습은 동적 균형 제어, 전신 운동 조정, 그리고 환경 인식 능력에서 전례 없는 수준의 기술적 성취를 보여주었다.49 이는 로봇이 공장과 같은 정형화된 환경을 넘어, 인간이 활동하는 복잡하고 비정형적인 환경에서 물리적 임무를 수행할 수 있는 가능성을 현실적으로 제시한 사건이었다.
상용 및 소셜 로봇의 진화 (Sony Aibo): Sony는 1999년 처음 선보였던 로봇 강아지 Aibo를 2018년에 인공지능과 클라우드 기술로 완전히 재무장하여 새롭게 출시했다.49 새로운 Aibo는 카메라를 통해 주인의 얼굴을 인식하고, 터치 센서와 음성 인식을 통해 교감하며, 학습을 통해 점차 개성을 형성해 나갔다. 이는 로봇이 단순히 프로그램된 작업을 수행하는 도구를 넘어, 인간과 정서적 유대를 형성하는 동반자(companion)로서의 역할을 수행할 수 있음을 보여주는 대표적인 사례였다.
다양한 형태와 기능의 로봇들: 이 외에도 2018년에는 특정 목적을 위해 설계된 혁신적인 로봇들이 다수 등장했다. 주인을 자동으로 따라다니는 자율주행 여행 가방(ForwardX CX-1), 주변 환경과 과제에 맞춰 스스로 형태를 바꾸는 모듈형 변신 로봇(Cornell University), 그리고 물 위와 물속을 모두 이동할 수 있는 곤충 모방 마이크로 로봇(Harvard Ambulatory Microrobot, HAMR) 등은 로봇 기술의 적용 범위가 일상생활, 재난 구조, 환경 탐사 등 다양한 영역으로 빠르게 확장되고 있음을 보여주었다.49 또한 수술 로봇(da Vinci SP), 소프트 로봇, 나노 로봇, 웨어러블 로봇 등 의료, 제조, 물류 분야에서도 주목할 만한 혁신이 이어졌다.50
이러한 하드웨어의 발전은 소프트웨어, 특히 인공지능 알고리즘의 발전과 긴밀하게 연결되어 있다. QT-Opt의 정교한 파지 능력 48과 Atlas의 놀라운 동적 기동성 49은 언뜻 보기에 별개의 기술적 성취처럼 보이지만, 실제로는 동전의 양면과 같다. 이 둘의 관계는 하드웨어와 소프트웨어의 공진화(co-evolution)라는 관점에서 이해할 수 있다. Atlas와 같이 뛰어난 성능을 가진 하드웨어 플랫폼은 QT-Opt와 같은 복잡한 학습 알고리즘이 탐색하고 학습할 수 있는 풍부하고 다채로운 물리적 행동 공간(action space)을 제공한다. 로봇이 더 다양하고 역동적인 움직임을 수행할 수 있을수록, 학습 알고리즘은 더 풍부한 데이터를 통해 더 정교하고 일반화된 정책을 학습할 수 있다. 반대로, QT-Opt와 같이 강력한 학습 알고리즘은 하드웨어의 잠재력을 최대한으로 끌어내어, 설계 당시에는 개발자가 의도하지 않았던 새로운 능력(예: 사전 조작)을 발현시킨다. 이처럼 하드웨어의 발전이 더 정교한 AI를 요구하고, AI의 발전이 더 다재다능한 하드웨어를 가능하게 하는 선순환 구조가 2018년에 본격적으로 가시화되기 시작했다. 이 공진화의 역학은 이후 로봇 공학 발전의 핵심적인 동력이 되었으며, 오늘날 우리가 목격하는 지능형 로봇 기술 발전의 근간을 이루고 있다.
5. 결론: 2018년 12월 연구의 종합적 의의 및 전망
2018년 12월, NeurIPS와 CoRL을 중심으로 발표된 주요 연구들은 인공지능 및 로봇 공학 분야의 몇 가지 핵심적인 패러다임 전환을 명확하게 보여주었다. 이는 단순히 개별 기술의 발전을 넘어, 학문 분야 전체가 새로운 단계로 진입하고 있음을 알리는 신호탄이었다.
첫째, 모델링의 연속화가 시작되었다. ’Neural Ordinary Differential Equations’는 딥러닝 모델을 이산적인 층의 집합이 아닌, 연속적인 동역학 시스템으로 바라보는 혁신적인 시각을 제시했다. 이는 모델의 메모리 효율성과 계산 유연성을 극대화했을 뿐만 아니라, 딥러닝과 응용수학, 과학 컴퓨팅 분야의 융합을 촉진하는 이론적 다리를 놓았다.
둘째, 이론의 심화를 통해 분야의 학문적 깊이가 더해졌다. ’분산 최적화’와 ’GMM 학습’에 대한 연구들은 수십 년간 경험적 성공에 의존하거나 이론적 해답이 부재했던 분야에 엄밀한 수학적, 이론적 기반을 제공했다. 통신 병목에 대한 새로운 관점을 제시하고, 거의 최종적인 표본 복잡도 경계를 증명함으로써, 이들 연구는 해당 분야를 더 견고하고 예측 가능한 과학의 영역으로 이끌었다.
셋째, 강화학습의 성숙이 돋보였다. ’망상 없는 Q-러닝’은 함수 근사를 사용하는 강화학습의 고질적인 불안정성 문제를 ’망상 편향’이라는 개념으로 정밀하게 진단하고 이론적 해결책을 제시했다. 동시에, ’QT-Opt’는 대규모 실제 데이터를 통해 강화학습이 시뮬레이션의 한계를 넘어 현실 세계의 복잡하고 일반화가 요구되는 로봇 조작 문제를 해결할 수 있는 강력한 도구임을 실증적으로 입증했다.
넷째, 현실 세계로의 본격적인 전이가 이루어졌다. ’Deep Drone Racing’과 ’QT-Opt’는 시뮬레이션과 현실의 간극(sim-to-real gap)을 극복하고, 동적이고 예측 불가능한 환경에 강건하게 대응하는 로봇 학습의 실질적인 도약을 보여주었다. 이는 로봇 공학이 통제된 실험실을 벗어나 실제 세상에서 유용한 작업을 수행할 수 있는 가능성을 한층 더 구체화했다.
이 시점에 발표된 연구들은 이후 인공지능 분야의 연구 지형에 지대한 영향을 미쳤다. Neural ODEs가 제시한 연속적 관점은 물리 정보 기반 신경망(PINNs) 등 과학 및 공학 분야와의 융합 연구를 가속화하는 기폭제가 되었다. 분산 최적화에 대한 깊이 있는 이론적 분석은 이후 연합 학습(Federated Learning)과 같이 개인정보를 보호하면서 대규모 데이터를 학습하는 기술의 핵심적인 이론적 토대가 되었다. QT-Opt가 개척한 대규모 데이터 기반 로봇 학습 패러다임은 구글의 ‘Everyday Robot’ 프로젝트를 거쳐, 오늘날의 로봇 파운데이션 모델(Robotics Foundation Models) 연구의 서막을 열었다고 평가할 수 있다.
결론적으로, 2018년 12월은 인공지능과 로봇 공학이 단순히 ’가능성’을 탐색하고 개별적인 성공 사례를 만들어내는 단계를 넘어, ‘신뢰성’, ‘확장성’, ’이론적 견고함’을 갖추고 현실 세계의 근본적인 문제들을 본격적으로 해결하기 시작한 중요한 변곡점으로 기록될 것이다. 이 시기에 뿌려진 지적 씨앗들은 이후 수년간 풍성한 연구 성과로 자라나, 현재 우리가 경험하고 있는 인공지능 기술 혁명의 근간을 이루고 있다.
6. 참고 자료
- The potential for artificial intelligence in healthcare - PMC, https://pmc.ncbi.nlm.nih.gov/articles/PMC6616181/
- NOTES FROM THE AI FRONTIER MODELING THE IMPACT OF AI ON THE WORLD ECONOMY - McKinsey, https://www.mckinsey.com/~/media/mckinsey/featured%20insights/artificial%20intelligence/notes%20from%20the%20frontier%20modeling%20the%20impact%20of%20ai%20on%20the%20world%20economy/mgi-notes-from-the-ai-frontier-modeling-the-impact-of-ai-on-the-world-economy-september-2018.ashx
- Conference on Neural Information Processing Systems - Wikipedia, https://en.wikipedia.org/wiki/Conference_on_Neural_Information_Processing_Systems
- 2018 Conference - NeurIPS 2025, https://neurips.cc/Conferences/2018
- Volume 87: Conference on Robot Learning, 29-31 October 2018, https://proceedings.mlr.press/v87/
- 2nd Annual Conference on Robot Learning, CoRL 2018, Zürich, Switzerland, 29-31 October 2018, Proceedings | Semantic Scholar, https://www.semanticscholar.org/paper/2nd-Annual-Conference-on-Robot-Learning%2C-CoRL-2018%2C/9928eb02ec447f1b8fa685141d2b9c6789cc4eff
- Allen School’s Yin Tat Lee earns Best Paper Award at NeurIPS 2018 for new algorithms for distributed optimization, https://news.cs.washington.edu/2018/12/06/allen-schools-yin-tat-lee-earns-best-paper-award-at-neurips-2018-for-new-algorithms-for-distributed-optimization/
- Professor Shai Ben-David and colleagues win best paper award at NeurIPS 2018 | Artificial Intelligence Group | University of Waterloo, https://uwaterloo.ca/artificial-intelligence-group/news/professor-shai-ben-david-and-colleagues-win-best-paper-award
- Vector Researchers Win Top Honours at NeurIPS 2018, https://vectorinstitute.ai/vector-researchers-win-top-honours-at-neurips-2018/
- Neural Ordinary Differential Equations, http://papers.neurips.cc/paper/7892-neural-ordinary-differential-equations.pdf
- Journal Club: Chen et al, 2018: Neural Ordinary Differential Equations - - Thomas Harper -, https://authortomharper.com/2019/06/10/journal-club-chen-et-al-2018-neural-ordinary-differential-equations/
- Augmented Neural ODEs, http://papers.neurips.cc/paper/8577-augmented-neural-odes.pdf
- Neural Ordinary Differential Equations - NIPS, https://papers.nips.cc/paper/7892-neural-ordinary-differential-equations
- Interpretable polynomial neural ordinary differential equations - PMC, https://pmc.ncbi.nlm.nih.gov/articles/PMC10076068/
- Optimal Algorithms for Non-Smooth Distributed Optimization in Networks, http://papers.neurips.cc/paper/7539-optimal-algorithms-for-non-smooth-distributed-optimization-in-networks.pdf
- Optimal Algorithms for Non-Smooth Distributed Optimization in Networks - NIPS, https://papers.nips.cc/paper/7539-optimal-algorithms-for-non-smooth-distributed-optimization-in-networks
- Optimal Algorithms for Non-Smooth Distributed Optimization in Networks - Semantic Scholar, https://www.semanticscholar.org/paper/Optimal-Algorithms-for-Non-Smooth-Distributed-in-Scaman-Bach/0b4283f264d3ceeb97d17ac621c0e5ad101ec1db
- NeurIPS Poster Lower Bounds and Optimal Algorithms for Non-Smooth Convex Decentralized Optimization over Time-Varying Networks, https://neurips.cc/virtual/2024/poster/95766
- Nearly tight sample complexity bounds for learning mixtures of …, https://www.cs.ubc.ca/~nickhar/papers/MixtureOfGaussians/MixtureOfGaussians-NeurIPS.pdf
- Near-optimal Sample Complexity Bounds for Robust Learning of Gaussian Mixtures via Compression Schemes - UBC Computer Science, https://www.cs.ubc.ca/~nickhar/papers/MixtureOfGaussians/MixtureOfGaussians.pdf
- Nearly tight sample complexity bounds for learning mixtures of Gaussians via sample compression schemes - SciSpace, https://scispace.com/pdf/nearly-tight-sample-complexity-bounds-for-learning-mixtures-2yiokxsizz.pdf
- Nearly tight sample complexity bounds for learning mixtures of …, http://papers.neurips.cc/paper/7601-nearly-tight-sample-complexity-bounds-for-learning-mixtures-of-gaussians-via-sample-compression-schemes
- [PDF] Nearly tight sample complexity bounds for learning mixtures of …, https://www.semanticscholar.org/paper/Nearly-tight-sample-complexity-bounds-for-learning-Ashtiani-Ben-David/95ddf4076260861f0b4990509ab10541c84e5270
- Shai Ben-David – CIFAR - Canadian Institute for Advanced Research, https://cifar.ca/bios/shai-ben-david/
- Nick Harvey - Simons Institute, https://simons.berkeley.edu/people/nick-harvey
- Nick Harvey | Computer Science at UBC, https://www.cs.ubc.ca/people/nick-harvey
- About Me - Chris Liaw’s web page, https://cvliaw.github.io/
- Christopher Liaw - Simons Institute, https://simons.berkeley.edu/people/christopher-liaw
- Abbas Mehrabian - McGill University | Channels - McGill University, https://www.mcgill.ca/channels/channels/event/abbas-mehrabian-mcgill-university-293420
- Abbas Mehrabian - McGill School Of Computer Science, https://www.cs.mcgill.ca/~amehra13/abbas_mehrabian.pdf
- Yaniv Plan | Associate Professor — University of British Columbia — Mathematics, https://www.yanivplan.com/
- PIMS-UBC Distinguished Colloquium: Yaniv Plan, https://www.pims.math.ca/events/171118-pudcyp
- Non-delusional Q-learning and value-iteration - NIPS, https://papers.nips.cc/paper/8200-non-delusional-q-learning-and-value-iteration
- (PDF) Non-delusional Q-learning and value-iteration - ResearchGate, https://www.researchgate.net/publication/328772100_Non-delusional_Q-learning_and_value-iteration
- Thu Track 1 – Session 2 - NeurIPS 2025, https://nips.cc/virtual/2018/session/12908
- Non-delusional Q-learning and value iteration - Department of Computer Science, University of Toronto, https://www.cs.toronto.edu/~cebly/Papers/nondelusionalQ_nips18.pdf
- NeurIPS Poster Improving Deep Reinforcement Learning by Reducing the Chain Effect of Value and Policy Churn, https://neurips.cc/virtual/2024/poster/94420
- Improving Deep Reinforcement Learning by Reducing the Chain Effect of Value and Policy Churn - arXiv, https://arxiv.org/html/2409.04792v2
- CoRL 2018 Best System Paper Award - IFI UZH - Universität Zürich, https://www.ifi.uzh.ch/en/rpg/news/CoRL-2018-Best-System-Paper-Award.html
- Keynotes and Tutorials - CoRL 2018, https://2018.corl.org/corl-2018/keynotes-and-tutorials
- Deep Drone Racing: from Simulation to Reality with Domain Randomization - Vladlen Koltun, http://vladlen.info/papers/deep-drone-racing-TRO.pdf
- Deep Drone Racing: Learning Agile Flight in Dynamic Environments, http://proceedings.mlr.press/v87/kaufmann18a/kaufmann18a.pdf
- (PDF) Deep Drone Racing: Learning Agile Flight in Dynamic Environments - ResearchGate, https://www.researchgate.net/publication/325965662_Deep_Drone_Racing_Learning_Agile_Flight_in_Dynamic_Environments
- (PDF) Deep Drone Racing: Learning Agile Flight in Dynamic Environments - ResearchGate, https://www.researchgate.net/publication/336888998_Deep_Drone_Racing_Learning_Agile_Flight_in_Dynamic_Environments
- Deep Drone Racing: Learning Agile Flight in Dynamic Environments - Semantic Scholar, https://www.semanticscholar.org/paper/Deep-Drone-Racing%3A-Learning-Agile-Flight-in-Dynamic-Kaufmann-Loquercio/5cb7a49de854661d54f0a35a4143f28f2f7025a3
- Scalable Deep Reinforcement Learning for Vision-Based Robotic …, http://proceedings.mlr.press/v87/kalashnikov18a/kalashnikov18a.pdf
- [1806.10293] QT-Opt: Scalable Deep Reinforcement Learning for Vision-Based Robotic Manipulation - ar5iv, https://ar5iv.labs.arxiv.org/html/1806.10293
- QT-Opt: Scalable Deep Reinforcement Learning for Vision-Based Robotic Manipulation, https://www.semanticscholar.org/paper/QT-Opt%3A-Scalable-Deep-Reinforcement-Learning-for-Kalashnikov-Irpan/eb37e7b76d26b75463df22b2a3aa32b6a765c672
- Best Robotics in 2018 | IMA - Strategic Finance, https://www.sfmagazine.com/technotes/2019/january/best-robotics-in-2018
- Top 10 Robotic Innovations of 2018 - EE World Online, https://www.eeworldonline.com/top-10-robotic-innovations-of-2018/
- The Top 10 robotics technologies of 2018, according to Science …, https://jacobsschool.ucsd.edu/news/release/2706
- Top 10 Most Fascinating Robotics Inventions of 2018 - BOSS Magazine, https://thebossmagazine.com/article/top-10-robotics-inventions-2018/
- Best Robotics in 2018 | IMA - Strategic Finance, https://www.sfmagazine.com/technotes/2019/january/best-robotics-in-2018/